小红花大语言模型排行榜(2024年10月):o1 锋芒毕露
小红花大语言模型排行榜(2024年10月):o1 锋芒毕露
这是小红花技术领袖俱乐部旗下内容平台「小红花·文摘」首次发布大语言模型排行榜,前三名是GPT、o1和Llama。全文包括排行榜详情,排行依据及统计说明,解释与其它排行榜的不同之处,等。
10月标题:o1 锋芒毕露
首先来看排行榜的前20名:
名次 | 大语言模型 | 得分 |
1 | GPT | 289.58 |
2 | o1 | 183.2 |
3 | Llama | 148.17 |
4 | Gemini | 120.53 |
5 | Claude | 66.36 |
6 | 文心 | 57.12 |
7 | 千问 | 42.41 |
8 | 豆包 | 30.61 |
9 | Phi | 21.02 |
10 | Grok | 15.09 |
11 | ChatGLM | 7.74 |
12 | Mistral | 6.62 |
13 | Abab6 | 6.28 |
14 | 混元 | 5.15 |
15 | BaiChuan | 4.43 |
16 | 讯飞星火 | 3.68 |
17 | 盘古 | 3.67 |
18 | cohere | 3.31 |
19 | Molmo | 2.95 |
20 | Yi | 2.52 |
从表中可见,尽管9月12日OpenAI 才刚刚发布最新的大语言模型o1,但它立马得到所有人的关注,流行度已经冲到第2。因为o1是基于强化学习的内化思维链学习,通过思维链式的问题拆解,模型可以不断验证和纠错,这与GPT有很大的不同,所以小红花大语言模型排行榜将其单列。Llama 始终是开源 LLM 的领头羊,其后紧追不舍的中美大厂产品。腾讯的混元大模型还是吃了晚发布的亏,在热度上追赶得有点吃力了。
以上是2024年10月小红花大语言模型排行榜的全景图,往后排列的大语言模型是:Moonshot、MiniCPM、ChipNeMo、Alpaca、tulu、vicuna、WizardLM、Guanaco,等。尽管我们试图统计的模型有将近100个,但是实在上在开发者内容中当过「主角」的已经是屈指可数,LLM的竞争比想象中的更加残酷。
排行依据和统计说明
排行依据
小红花技术领袖俱乐部旗下内容平台「小红花·文摘」聚合全球(以中文、英文为主,基于AI进行摘要和翻译)开发者博客的准实时内容(延迟通常不超过1小时),目前每月内容数量接近1万篇,绝大部分内容为编程相关的硬核文章,通过分析文章涉及的大语言模型,并据此进行统计,可以反映各大语言模型的流行程度。
在尝试制作初步制作出排行榜的时候,跟其它大语言模型排行榜进行比对,发现各产品的流行度差异性、聚集度基本对得上,因此作为一个大语言模型流行度指标榜单是可信的。
统计说明
1、整体而言,小红花大语言模型排行榜就是统计时间范围之内各大语言模型相关的内容数量,在乘以针对不同大语言模型制定的系数之后,各大语言模型内容在总数量上的得分及排行。
2、考虑到小红花大语言模型库排行榜刚刚开始制订,未来可能会有比较大的调整和修改,暂时不会公开算法和系数。
3、为确保尽可能地统计不同大语言模型,我们对大语言模型的别名也进行了归一化处理,如ChatGLM包括了ChatGLM3等、千问包括了qwen等。
特此说明。
与其它排行榜的不同之处
1、 首先是量的不同,等其它榜单大多统计不同大语言模型相关内容的总量,而小红花大语言模型排行榜采用的数据是1个月维度内的新内容为主体,能够快速反映数据库的流行度变化。
2、 然后是质的不同,因为小红花大语言模型排行榜大约有一半数据源是中文的,所以会和基于英文的排行榜有比较大的差异。
3、 最后统计口径也有比较大的差异,小红花大语言模型排行榜统计内容时间窗口短,选择噪音更少的博客内容,和真实世界的「体感」更为接近。
小结
整体来说,一个中文内容占比较大的大语言模型排行榜,对项目的技术方案选型是有参考意义的,这是小红花大语言模型排行榜的动力之源,也是以后继续编制的意义所在。接下来我们将在「小红花·文摘」开辟排行榜栏目以便发布相关信息和内容,同时也会发布在我们公众号,敬请关注。